End-to-end multilingual ASR has become more appealing because of several reasons such as simplifying the training and deployment process and positive performance transfer from high-resource to low-resource languages. However, scaling up the number of languages, total hours, and number of unique tokens is not a trivial task. This paper explores large-scale multilingual ASR models on 70 languages. We inspect two architectures: (1) Shared embedding and output and (2) Multiple embedding and output model. In the shared model experiments, we show the importance of tokenization strategy across different languages. Later, we use our optimal tokenization strategy to train multiple embedding and output model to further improve our result. Our multilingual ASR achieves 13.9%-15.6% average WER relative improvement compared to monolingual models. We show that our multilingual ASR generalizes well on an unseen dataset and domain, achieving 9.5% and 7.5% WER on Multilingual Librispeech (MLS) with zero-shot and finetuning, respectively.
translated by 谷歌翻译
神经网络修剪可以有效地用于压缩自动语音识别(ASR)模型。但是,在多语言ASR中,执行语言不足的修剪可能会导致某些语言的严重性能降解,因为语言 - 敏捷的修剪口罩可能不符合所有语言,并丢弃了重要的语言特定参数。在这项工作中,我们提出了ASR路径,这是一种稀疏的多语言ASR模型,该模型激活了特定语言的子网络(“路径”),从而明确地学习了每种语言的参数。通过重叠的子网络,共享参数还可以通过联合多语言培训来实现较低资源语言的知识传输。我们提出了一种新型算法来学习ASR途径,并通过流式RNN-T模型评估了4种语言的建议方法。我们提出的ASR途径的表现都优于密集模型(平均-5.0%)和语言不足的修剪模型(平均-21.4%),并且与单语稀疏模型相比,低资源语言的性能更好。
translated by 谷歌翻译
跨不同边缘设备(客户)局部数据的分布不均匀,导致模型训练缓慢,并降低了联合学习的准确性。幼稚的联合学习(FL)策略和大多数替代解决方案试图通过加权跨客户的深度学习模型来实现更多公平。这项工作介绍了在现实世界数据集中遇到的一种新颖的非IID类型,即集群键,其中客户组具有具有相似分布的本地数据,从而导致全局模型收敛到过度拟合的解决方案。为了处理非IID数据,尤其是群集串数据的数据,我们提出了FedDrl,这是一种新型的FL模型,它采用了深厚的强化学习来适应每个客户的影响因素(将用作聚合过程中的权重)。在一组联合数据集上进行了广泛的实验证实,拟议的FEDDR可以根据CIFAR-100数据集的平均平均为FedAvg和FedProx方法提高了有利的改进,例如,高达4.05%和2.17%。
translated by 谷歌翻译
变化自动编码器(VAE)的最新进展使学习潜流歧管成为紧凑的谎言组,例如$ SO(d)$。由于这种方法假定数据在于谎言组本身同构的子空间,因此我们在这里研究了该假设如何在图像的背景下通过预测$ d $二维量产生的图像,而$ d $ d $ d $二维构成$ so so so so(d)$。在检查小组和图像空间的不同理论候选者后,我们表明,定义对数据空间的组动作的尝试通常会失败,因为它需要对卷上的更具体的几何约束。使用几何VAE,我们的实验证实了此约束是适当姿势推断的关键,我们讨论了这些结果对应用和未来工作的潜力。
translated by 谷歌翻译
端到端的口语理解(SLU)使用单个模型直接从音频中预测意图。它有望通过利用中间文本表示中丢失的声学信息来提高助手系统的性能,并防止自动语音识别(ASR)中的级联错误。此外,在部署助手系统时,拥有一个统一模型具有效率优势。但是,具有语义解析标签的公共音频数据集有限的数量阻碍了该领域的研究进展。在本文中,我们发布了以任务为导向的语义解析(Stop)数据集,该数据集是公开可用的最大,最复杂的SLU数据集。此外,我们定义了低资源拆分,以建立有限的标记数据时改善SLU的基准。此外,除了人类录制的音频外,我们还发布了TTS生成版本,以基于端到端SLU系统的低资源域适应性的性能。最初的实验表明,端到端SLU模型的性能比级联的同行差一些,我们希望这能鼓励未来的工作。
translated by 谷歌翻译
对于移动机器人来说,自主行驶安全性的能力,尤其是在动态环境中的能力至关重要。近年来,DRL方法在避免动态障碍物方面表现出了出色的表现。但是,这些基于学习的方法通常是在专门设计的仿真环境中开发的,并且很难针对传统的计划方法进行测试。此外,这些方法将这些方法的集成和部署到真正的机器人平台中尚未完全解决。在本文中,我们介绍了Arena-Bench,这是一套基准套件,可在3D环境中在不同机器人平台上进行训练,测试和评估导航计划者。它提供了设计和生成高度动态评估世界,场景和自动导航任务的工具,并已完全集成到机器人操作系统中。为了展示我们套件的功能,我们在平台上培训了DRL代理,并将其与各种相关指标上的各种现有基于模型和学习的导航方法进行了比较。最后,我们将方法部署到了真实的机器人方面,并证明了结果的可重复性。该代码可在github.com/ignc-research/arena-bench上公开获得。
translated by 谷歌翻译
我们提出了一种基于审议的新型方法来端到端(E2E)口语理解(SLU),其中流媒体自动语音识别(ASR)模型会产生第一频繁的假设和第二通通的自然语言(NLU)(NLU) )组件通过对ASR的文本和音频嵌入来生成语义解析。通过将E2E SLU制定为广义解码器,我们的系统能够支持复杂的组成语义结构。此外,ASR和NLU之间的参数共享使该系统特别适合资源受限的(内部设备)环境;我们提出的方法始终在TOPV2数据集的口头版本(Stop)的口语版本上始终优于强大管道NLU基线的0.60%至0.65%。我们证明了文本和音频功能的融合,再加上系统重写第一通道假设的能力,使我们的方法对ASR错误更加强大。最后,我们表明我们的方法可以显着减少从自然语音到合成语音训练时的降解,但是要使文本到语音(TTS)成为可行的解决方案,以扩大E2E SLU。
translated by 谷歌翻译
在过去的几十年中,由于其在广泛的应用中,现场文本认可从学术界和实际用户获得了全世界的关注。尽管在光学字符识别方面取得了成就,但由于诸如扭曲或不规则布局等固有问题,现场文本识别仍然具有挑战性。大多数现有方法主要利用基于复发或卷积的神经网络。然而,虽然经常性的神经网络(RNN)通常由于顺序计算而遭受慢的训练速度,并且遇到消失的梯度或瓶颈,但CNN在复杂性和性能之间衡量折衷。在本文中,我们介绍了SAFL,一种基于自我关注的神经网络模型,具有场景文本识别的焦点损失,克服现有方法的限制。使用焦损而不是负值对数似然有助于模型更多地关注低频样本训练。此外,为应对扭曲和不规则文本,我们在传递到识别网络之前,我们利用空间变换(STN)来纠正文本。我们执行实验以比较拟议模型的性能与七个基准。数值结果表明,我们的模型实现了最佳性能。
translated by 谷歌翻译
450万小时的英语演讲从10个不同的10个不同来源,跨越高达10亿参数的不同来源,我们探索了自动语音识别的规模前沿。我们提出了数据选择技术,以有效地缩放培训数据,以找到大规模数据集中最有价值的样本。为了有效地进行模型尺寸,我们利用各种优化,例如稀疏传感器丢失和模型分片。通过培训1-10B参数通用英语ASR模型,我们将语音识别性能的限制推动在许多域中。此外,我们的模型学习强大的语音表示,在新域名和言语方面具有零和少量功能,超出了多个内部和公共基准的先前结果。对于由于脑损伤而具有障碍的扬声器,我们最好的零射击和少量射频分别在Aphasiabank测试集中实现了22%和60%,同时在公共社交媒体视频中实现了最佳性能。此外,相同的通用模型在SPGISPeech Financial-Domain数据集上达到了500倍的域内数据等效性能。
translated by 谷歌翻译
测量自动语音识别(ASR)系统质量对于创建用户满意的语音驱动应用程序至关重要。传统上,单词错误率(WER)用于评估ASR系统质量;但是,它有时与用户对转录质量的看法/判断息息相关。这是因为wer平等地称重每个单词,并且不考虑对用户感知产生更高影响的语义正确性。在这项工作中,我们提出评估ASR输出的质量,可以通过使用参考的语义向量与从预训练的语言模型中提取的假设之间的距离来测量语义正确性。我们对71K和36K用户注释的ASR输出质量的实验结果表明,与WER相比,Semdist与用户感知的相关性更高。我们还表明,与WER相比,Semdist与下游自然语言理解(NLU)任务具有更高的相关性。
translated by 谷歌翻译